Нужное мне выравнивание я взяла в варианте 3. Для того, что посчитать IC я посчитала частоты нуклеотидов в каждой из колонок, а также матрицу весов PWM. Далее мне потребовалось посчитать IC для каждого нуклеотида и каждой колонки и итоговое IC.
Также был построен LOGO.
Для проверки мотива был использован сервис FIMO. При помощи команды fimo --oc result --norc meme.txt sequence.fasta я получила таблицу.
Свойства мотива:
1)Его длина 6 нуклеотидов.
2)Ровно один сигнал есть в лидерной последовательности.
3)Нет других сигналов, соответствующих мотиву.
4)P-value этих находок <0.001, значит они не случайны.
Лучшее возможное совпадение из выдачи FIMO:
С помощью webLogo был построен Logo для последовательностей Козак.
Я хотела взять геном родственника Rabbit coronavirus HKU18 из Embecovirus, но ни для одного другого штамма того же вида нет геномов. Поэтому я взяла геном близкого родственника Betacoronavirus HKU24 также из Betacoronovirus. И этот мотив не очень похож на предыдущий, поэтому можем сказать, что мотивы специфичны для разных вирусов
Выдача FIMO: